ーー Virtex-4 FX の コ プ ロ セッ サ 機 能 を 使い こなす 


本 稿 で は , CPU コア の ハー ド ・ マ クロ を 搭載 する FPGA の 効 
果 的 な 活用 法 を 解説 する . CPU と ユー ザ 回 路 が それ ぞ れ 別 の 
LSI に な る 場合 と , 一 つの LSI に 集積 で きる 場合 の 違い を 説明 
する . 米国 Xilinx 社 の Virtex-4 FX が 持つ ハー ドウ ェ ア ・ ア 
クセ ラレー タ 機 能 の 利用 法 と アプ リケーション 事例 を 紹介 
する . (編集 部 ) 


従来 か ホ ら よく , ソフ ト ウェア と ハー ド ウェ ア の 境界 線 に つ 
いて 設計 時 に 取り ざた され ます . CPU コア 内 蔵 の FPGA は , 
最適 な 設計 を 1 チッ プ で 実現 で きる LSI と 言え ます . 例え ば 
回 路 全 体 を 制御 する ステ ー ト ・ マ シン の 役割 を CPU に 割り 
当て た り , ハー ドウ ェ ア で は 複雑 すぎ て 設計 に 時 間 が か か る 
と ころ を CPU に よっ て エミ ュ レ ーション する と いう 使い か 
た が 考え られ ます . 設計 資産 を 活用 し や すく な る な ど , さま 
ざま な 利点 が あり ます . 

従来 は , 汎用 CPU で A 機 能 , FPGA で B 機 能 , ASSP 
で C 機 能 と いっ た ぐあい に 割り 当て て , 一 つの シス テム を 
設計 し て いま し た . これ が 1 チッ プ で で きる と , プリ ント 


DCR : Device Control Register 
FCB : Fabric Coprocessor Bus 
OCM : On-Chip Memory 


PLB : Processor Local Bus デー タ 較 
バス 


図 1 

Virtex-4 FX に 内 蔵 さ れる PowerPC コア 
の ブロ ッ ク 

命令 バス と デー タ ・ バ ス が 独立 し て いる . 灰色 
の 部 分 は ユー ザ 回 路 . 


弁 儲 琴 


ュー 


基板 面積 の 削減 や 低 コ スト 化 に つなが り ま す . さら に 回 路 
構成 が 外部 か ら 見 え に く く な る た め , 機密 保持 の 点 で も メ 
リッ ト が あり ます . 

本 稿 で は , CPU コア の ハー ド ・ マ クロ を 内 蔵 する FPGA 
を 効果 的 に 活用 する 方 法 を 解説 し ます . ユー ザ 回 路 と CPU 
の 間 の 接続 に つい て の 考え か た や , 米国 Xilimx 社 の Virtex- 
5KX ア アミ り が 持つ ハー ドウ ェ エア ・ アグ セラ レー 刀 コブ 
ロ セ ッ サ ) 機能 APU Auxiary Processing Unit) を 用 い 
る 方 法 を 説明 し ます . 


ーーーーーーーー ーーーーーー 一 


FPGA- ギ CPU コア に よ 尾 熊 の 向 王 = 


FPGA に 内 蔵 さ れる CPU コア で あっ て も , 設計 の 考え 
か た は 汎用 CPU を 使う 場合 と 変わり ませ ん . CPU が プリ 
ント 基板 上 で つなが っ て いる の か , シリ コン 上 で つなが っ 
て いる の か の 違い だ け で す . た だ し , シリ コン 上 の ほう が 
配線 に 制約 が 少な い の で , バス 構造 や リセット / 割 り 込み 
回 路 な どの 自由 度 が 高く な る こと が 多い よう です . 


デー タ ・ 凶 
キャ ッシュ 較 


DDR メ モリ ・ 凶 


命令 バス コン ト ロー ラ 較 


デー タ ・ アド レス | 


ス 図 
PLB 図 

ドレ ス [ 

較 


PLB 
デー タ ・ バス 較 
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Er ニュ ニュ ニュ て Sta 

@ FPGA に 組み 込ま れる CPU コア に は 制約 が 少な い に まとめ られ て いる た め , 例え ば 外部 DMA コン ト ロー ラ 

例え ば , 組み 込み 向け CPU と し て 販売 され て いる 米国 の アク セス 中 は , 命令 アク セス が 一 時 的 に 待た され る こと 
Applied Micro Circuits 宰 AMCC) の PowerPC 405GPr」 に な り ま す . これ に 対し て PowerPC コ ア で は , 例え ば 命 
の バス 構成 と , Xihimx 社 の FPGA Virtex-4 FX」 が 内 蔵 す 令 パ バス に フラ ッシュ ・ メ モリ を , デー タ ・ バ ス に SRAM と 
る PowerPC 405 コ T 以下 , 単 は PowerPC コ ア 」 と 呼ぶ ) DMA コン トロ ー ラ を つなげ る こと が で きま す . PowerPC 
を 比較 し て み ま す . 図 1 に 示す PowerPC コ ア の バス は , コア は , 命令 を 読み 出す た め に 命令 バス に 接続 され た フラ 
2 に 示す PowerPC 405 の バス と 比較 し て , 自由 度 が 高い こ ッシュ ・ メ モリ に アク セス し まず フェ ッ チ ・ サ イク ル ). 
と が わか り ま す . 命令 z フ ェ ッ チ し て いる 限り に お いて は , デー タ ・ バス 上 

PowerPC 405GPr で は , 命令 バス と デー タ ・ バ ス が 一 つ の DMA コン ト ロー ラ は SRAM メ モリ 空間 を 自由 に アク セ 


DCR : Device Control Register 
OCM : On-Chip Memory 

OPB : On-Chip Peripheral Bus 
PLB : Processor Local Bus 


SDRAM コ ント ロー ラ 較 


PCI バ ス ・ コ ント ロー ラ 了 


バス ・ ア ー ビ タ 職 
9 ョ 
命令 デー タ ・ 図 PLB 較 PP RS 同 王 陣 紹 
4K バ イト 図 |OCM バ ス 図 キャ ッシュ 図 | キャ ッシュ 凶 命令 アド レス 凶 バス ・ ブリ ッ ジ 図 

SRAM PLB 図 UART1 
ーー に 本 上 aa1 
邊 Ia 敵 
症 (@) 


DMA 図 
コン トロ ー ラ 較 


割り 込み 図 IDCR バ ス 丘 
コン トロ ー ラ 還 


10M/100M Ethernet 


図 2 
PowerPC 405GPr の ブロ ッ ク 図 
命令 バス と デー タ ・ バ ス が 一 つ に まとめ られ て いる . 


DMA コ ント ロー ラ 国 


バス ・ アー ビタ 了 且 


PLB : Processor Local Bus PLB 凶 128M ビ ッ ト ・ 


フラ ッシュ ・ メ モリ ・ 陸 
コン ト ロー ラ 罰 メモ リ 図 


バス の マス タ 権 利 を 陸 
持つ ユニ ッ ト 図 


PLB-SRAM 較 


コン トロ ー ラ 較 


APU 図 1 
ト ー ニ M デー タ . ババ 『 DMA 図 
図 
上 四 富 コン ト ロー ラ 図 
図 3 き な 
命令 バス と デー タ ・ バス を 分 割 する 効果 


命令 を フェ ッ チ 中 に , デー タ ・ バ ス 上 の DMA コン ト ロー ラ が デー タ ・ メ モリ を アク セス し て 
も 競合 し な い . 
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ス で きま す . つま り , PowerPC コ ア と DMA コン ト ロー ラ 
は 同一 時 間 に 並 列 し て 動く こと が で きま ず 図 3). 

も う 少 し 具体 的 に , 例え ば 行列 演算 コ プ ロ セッ サ を 考え 
て み ま し ょ う . CPU か ら の 処理 開始 要求 を 受け る と , デー 
タ ・ バ ス 上 の メ モリ か ら ソ ー ス 値 を 読み 出し , 演算 後に 結 
を メモ リ に 書き 戻し , CPU に 処理 終了 通知 を 割り 込み と 
いう 形 で 返す も の と し ます . 外部 メモ リ か ら ソ ー ス 値 を 読 
み 出 し た り 処理 結果 を 書き 戻す 際 に , DMA コン ト ロー ラ 
を 使い ます . PowerPC 405GPr の よう に 命令 バス と デー 
タ ・ バ ス が 共通 し て いる 一 般 的 な CPU で は , メモ リ ・ ア 
クセ ス の 際 に 命令 フェ ッ チ が 強制 的 に 停 I デッド タイム 
が 発生 ) し ます . し か し , PowerPC コ ア の よう に 命令 バス 
と デー タ ・ バス が 独立 し て いれ ば , この よう な デッド タイ 
ム は 発生 し ませ ん . 


環 


人 @ バス 接続 の 問題 
LSI の 中 で CPU コア と ユー ザ 回 路 を 接続 する 場合 , ボー 
ド 上 の 回 路 と 同じ よう に , バス を 使う の が 一 般 的 で す . 標 


ーー 
準 化 され た バス 向け に は , 機能 検証 済み の IP コア が 数 多く 
提供 され て お り , あたかも ボー ド 上 で CPU と 周辺 LSI を 組 
み 合 わせ る か の よう に LSI を 設計 で きま す . これ は 設計 期 
間 の 短縮 に 貢献 し ます . 
バス に 接続 し た ユー ザ 回 路 と CPU り の イン ター フェ ー ス は , 
メ モリ 空間 に 割り 当て た レジ スタ を 読み 書き する こと で 行 
いま す . ソフ トウ ェ ア で も 扱い や すい 構成 で す . し か し , 
ユー ザ 回 路 が 高度 な OS に よっ て 管理 され る 場合 に は 事情 が 
異な り ま す . メモ リ 空間 を ソフ トウ ェ ア が アク セス する と 
き , 論理 アド レス か ら 物 理 ア ドレ ス へ の 変換 が 行わ れる た 
めで す . この た め , デバ イス ・ ド ライ バ を 使う こと に な り 


4 APU 芝 の 
9 陸 織 昌 1 eee 


図 4 APU の 概要 


CPU の 機能 を 補完 する ハー ド ウェ ア ・ ア クセ ラレー タ を 接続 する イン ター 
フェ ー ス で ある . 


APUFCMINSTRUCTION 一 (ーー ニーー ト ーーー ト ーーー ーー レー 


APUFCMINSTRVALID 


APUFCMDECODED 


APUFCMLOADDATA (word00 word7 ーーー-ーー-- 
APUFCMLOADPDVALID 。 7 | |! NM 


FCMAPUDONE 


FCMAPULOADWAIT 7/ AN 


図 5 
APU- コ プロ セッ サ ・ 
イン ター フェ ー ス 


一 般 的 な 32 ビ ッ ト ・ 
デー タ ・ バ ス と あま 
り 変わ ら な い . 


( a) コ プ ロ セッ サ へ の デー タ 書き 込み 較 


cpuFrcMctk| | | | | | |LHHHLHIHLHH 昌 日 日 日 日 上 
APUFCMINSTRUCTION ーー ズ (ーー) 一 一 3 


APUFCMINSTRVALID / AN 
APUFCMDECODED ソー AN 
FCMAPURESULT ーー 一 ーーーーー ----- (word00word/ 


FCMAPUDONE 


FCMAPURESULTVALID 


( b) コ プ ロ セッ サ か ら の デー タ 読み 出し 図 
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9 oi 
6 ー 
に 
= 生生 < 
表 1 代表 的 な APU 命 令 


機 サイ ズ 
1 バイ ト 
2 バイ ト 
4 バイ ト 
8 バイ ト 
16 バ イト 
1 バイ ト 
2 バイ ト 
4 バイ ト 


ム | 
能 


bfFcmux 


hfcmux 


イン デック ス 加 算 付き 
ロー ド 


wEomux 


dfocmux 


qEocmux 


bfFocmxx 


hfomx 


wEomx 


主 同 


演算 結果 


FCM 実 行 ユ ニッ ト 時 


較 ツ ーH ロ コー へ 癌 司 


ブ 


タ ・ ロード 図 


6 APU の 動作 
APU 命 令 に より コ プ ロ セッ サ を アク セス する . 


ます が , 性 能面 で ご は オ ー バ ヘッ ド と な っ て し まい ます . 
組み 込み シス テム の 設計 で は , CPU と ソフ ト ウェ ア に よ 
る 構成 が 要求 仕様 に マッ チ し て いれ ば , C/C++ な ど で コ 
ー ド を 書い て 終わ り で す . これ で は 要求 仕様 を 満た せな い 
と き に , 専用 ハー ドウ ェ ア に よる 処理 を 考え ます . と ころ 
が 高度 な OS を 使う と , デバ イス ・ ド ライ バ に よる アド レ 
ス 変 換 の オー バ ヘ ッ ド で 性 能 が 上 が ら な いと いう 問題 が 
て くる の で す . 


臣 
村 


邊 | 
IT 


ツ : 


2. AP げに よる コ プ ロ セ E の 実現 : 
Xiinx 社 の FPGA Virtex-4 FX」 が 持つ 特徴 的 な 機能 の 

ー つ に , コ プ ロ セッ サ 機 能 を 実現 する APU り が あり ます . 筆 

者 は 本 FPGA が 搭載 され た 評価 キッ ト を 使い , APU を 評 


価 し て み ま し た . 
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8 バイ ト 
16 バ イト 
1 バイ ト 
2 バイ ト 
4 バイ ト 
8 バイ ト 
16 バ イト 
1 バイ ト 
2 バイ ト 
4 バイ ト 
8 バイ ト 
16 バ イト 


dfomx 


qEomx 


gtjbfomux 


gthfomux 


イン デック ス 加 算 付 き 
スト ア 


gtwfFoCmux 


Stdfomux 


Sgtqfocmux 


gtbFomxx 


gthfFocmxx 


StwFomxx 


gtQfFomxx 


gtqfEcmx 


注 : 1 ワー ド = 4 バイ ト 


人 @ 従来 の 接続 方 法 と 何 が 違う の か 

Virtex-4 FX に は , APU と FCR Fablic Control Bus) 
と いう , CPU の 機能 を 補完 する ハー ド ウェ ア ・ ア クセ ラ レ 
ー 人 本 稿 で ば は コ プ ロ セッ サ 」 と 呼ぶ ) を 接続 する イン ター 
フェ ー ス が 実装 され て いま す . FCB に は ユー ザ が 設計 し た 
コ プ ロ セッ サ を 接続 する こと が で きま 図 4). 

APU- コ プロ セツ サ ・ イン ター フェ ー ス を 図 5 に 示し ま 
す . これ だ け を 見 る と 単なる 32 ビ ッ ト ・ デ ー タ ・ バ ス で , 
今 ま で の ユー ザ 回 路 接続 法 と 何 が 違う の か ? と いう 疑問 が 
わく か も し れ ま せん . も っ と も 大 き な 違 い は , Virtex-4 FX 
内 蔵 の CPU コア に , FCB に つなが っ た コ プ ロ セッ サ を ア 


クセ ス す る た め の 専 用 命令 が 用 意 さ れ て いる こと で す . C 
言語 な どか ら こ の 命令 を 使う と APU が 動作 し , ユ プ ロ セ 


ロロ ロロ 


ッ サ が アク セス され まず 図 6). 


1 
EE 


本 IN 


@ 3 種類 の APU 命令 

代表 的 な APU 命 令 を 表 1 に 示し ます . この APU 命 令 に 
は 3 種類 の 命令 実行 形態 が あり ます . 

1) Autonomous 

APU 命 令 を 実行 し た あと , FCB に 接続 され た ユー ザ 
路 の 処理 が 完了 し て いな く て も , CPU は 次 の 命令 を 実行 で 
きま す . 

例え ば , APU 命 令 を 発行 し て ユー ザ 回 路 に 値 を セッ ト し 
た あと , CPU は 引き 続き 次 の 命令 を 実行 し ます . APU 命 
令 で セッ ト され た 値 を 使っ て ユー ザ 回 路 は 処理 を 行い ます . 
この 瞬間 だ け を と ら え て みる と , ユー ザ 回 路 と CPU は 完全 
に 並列 処理 状態 に な り , ハー ドウ ェ ア と ソフ トウ ェ ア が い 
ちば ん 効率 的 に 協調 動作 し て いる こと に な り ま す . 
具体 的 な 使用 例 と し て は , ハー ドウ ェ ア 側 の 処理 が 数 ク 

ロッ ク ~ 数 十 ク ロッ ク に わた っ て 必要 で ある た め , その 間 
に ソフ トウ ェ ア で 別 の 処理 を 実行 し た り , 直前 に 発行 し た 
APU 命 令 に よる ハー ドウ ェ ア 処 理 結 果 を ソフ トウ ェ ア が 参 
照 す る こと が な いと き に , Autonomous 形 態 自立 的 形態 ) 
の 命令 を 発行 し て 並列 処理 化 を 図る こと が 考え られ ます . 
2) Non-Autonomous/Blocking 
APU 命 令 を 実行 し た あと , FCB に 接続 され た ユー ザ 
路 が 実行 完了 する まで , CPU は 次 の 命令 実行 に 移り ませ ん . 
例え ば , リス ト 1 で g と いう 値 は 直前 の E の 値 が 決ま ら 
な い 限 り 実行 する こと が で きま せん . リス ト 1 を 正しく 動 
作 さ せる た め に は , 「 完了 を 待つ APU 命 令 」 を 使っ て 処理 
し ます . APU 命 令 の 発行 後 は , FCB の FCMAPUDONE 
( 処理 完了 通知 信号 , 図 5 参照 ) を 監視 し , ユー ザ 回 路 が 完 
了 し た こと を 検出 し た あと , 次 の g の 計算 を 実行 し ます . 
また , CPU が ユー ザ 回 路 の 実行 完了 を 待ち 続け る 間 に 割 
り 込み が 来 た と し て も , 応答 し ませ ん . 割り 込み 処理 の 開 
始 は , ユー ザ 回 路 の 実行 完了 後に 行わ れる こと に な り ま す . 
3) Non-Autonomous/Non-Blocking 
Non-Autonomous/Blocking と 同じ で , ユー ザ 回 路 か ら 
の 完了 通知 を 待っ て 次 の 命令 を 実行 し ます . た だ し , ユー 
ザ 回 路 か ら の 実行 完了 を 待ち 続け る 間 に 割 り 込み が 来 た と 
き の 動 作 が 異な り ま す . 

APU 命 令 の 実行 中 に CPU に 対し て 外部 割り 込み 要求 が 
発行 され た 際 , いっ た ん APU 命 令 実 行 を 中 断 し て 割り 込 
み 処 理 に 応答 し ます . そし て 割り 込み 処理 が 完了 し た 後 , 
中 断 し た APU 命 令 を 引き 続き 継続 実行 し , ユー ザ 回 路 か 
ら の 実行 完了 通知 を 待ち ます . 


回 


回 


リス ト 1 命令 の 実行 形態 


a,D,G,d/@, 王 』 
// 演算 の 開始 


// 直前 の デー タ を 参照 し な い 
//=> Autonomous 形態 


// 直前 の デー タ (f 値 ) を 参照 する 
//=> NonAutonomous 形態 


// 直前 の デー タ 値 を 出力 する 


return (9) : 


@ APU 命令 の 使い 分 け 

どの 命令 実行 形態 を 使う か は , ユー ザ 回 路 の 動作 と ソフ 
トウ ェ ア ・ コ ー ド の 書き か た に 依存 し ます . 

例え ば , 一 般 的 な が コ プ ロ セッ サ 命 令 と いう と 浮動 小数 点 
演算 命令 の 実行 が 考え られ ます が , この よう な 場合 に は 
Non-Autonomous/Blocking を 使う こと に な り そ う で す . 
演算 結果 を 次 の 命令 で 再 利用 する 必要 が ある た めで す . 

メモ リ 間 コ ピー と デー タ 処理 を 並列 し て 行う よう な 数 値 
演算 アプ リケーション の 場合 は , Autonomous 実 行 形式 を 
選択 する こと で 並列 化 が 可能 で あり , 最大 の 性 能 を 得る こ 
と が で きそう で す . ビッ ト ・ リ バー ス 処 理 , バタ フラ イ 演 
算 , FFT( fast fourier transform), FIR finite impulse 


response) /IIR infinit impulse response) フィ ル タ な ど , 
ディ ジタル 信号 処理 で は 頻繁 に 見 か け ま す . 

な お , APU 命 令 の ほとん ど は , デー タ PLB や デー タ 
OCM, デー タ ・ キャ ッシュ 内 と FCB の 間 の や り 取り に な 
り ま ず 図 7). つま り , あら か じ め メ モリ 上 に デー タ を 用 
意 し て お いて , 参照 アド レス を APU 命 令 に 渡せ ば , 内 部 
の シー ケン サ が 勝手 に バス 間 で 転送 し て くれ ます . 書き 出 
し の デー タ 空間 を キャ ッ シ ャ ブル 空間 に し て お け ば , 次 回 
に 高速 に 使い まわ すこ と も で きま す . 


@ 独自 命令 の 追加 

APU 命 令 で は , ユー ザ 独 自 の コー ド を 構築 する こと も で 
きま すず: 
既存 の APU 命 令 は あく まで も 単 一 レジ スタ 空間 へ の ロ 
ー ド / ス ト アレ し か サポ ー ト し て お ら ず , ユー ザ 回 路 が 複数 
の 空間 を 持っ て いる よう な 場合 に は , 完全 な 対応 が で きま 
せん . これ に 対し て ユー ザ 独 自 の APU 命 令 は , 対応 する 
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PLB 命 令 ア ドレ ス 呈 


PLB 命 令 バス ! 


4 


APU 実 行 時 は 未 使用 図 久 7 還 5 
APU 命令 実行 時 の デー タ の 流れ 
APU 命令 の ほとん ど は , デー タ PLB や デー タ OCM, 


と っ NM 
7 デー タ ・ キ ャ ッシュ 内 と FCB の 間 の や り 取り に な る . 


OCM デ ー タ ・ アドレス < 
OCM デ ー タ ・ バス 

PLB デ ー タ ・ ア ドレ ス | 
PLB デ ー タ ・ バス 


FCB: ユー ザ 回 路 イ ンタ ー フ ェ ー ス 隔 


アド レス 了 


コン パイ ラ の 改良 が 必要 と な り ま す が , 最大 で 32 個 の 32 
ビッ ト 長 ア ドレ ス 空 間 の いずれ か を 指定 し て アク セス を 行 
うこ と が で きま す . 


き . AP ば を 活用 し た 半 滞 困 の 本 


今回 は , 図 8 に ある よう な 二 つ の 画像 を 一 つの 画像 に す 
る ミキ シン グ 機 能 を ハー ド ウェ ア で 実現 し て APU 機 能 の 
有用 性 を 評価 し まし た. 


人 @ 開発 環境 
半 透 明 合成 回 路 の 設計 に 当たっ て 使用 し た 開発 環境 に つ 
いて 簡単 に まとめ ます . 


1) APU リ ファ レン ス ・ マ ニュ アル 

APU を 使う 設計 の 参考 に な る ド キュ メン ト は , 本 稿 執筆 
時 点 で Xihimx 社 が 提供 する アプ リケーション ・ ノ ー ド 1 し 
か あり ませ ん で し た . そこ で , この アプ リケーション ・ ノ 
ー ト を 頼り に , APU バ ス の 使用 方 法 や 命令 実行 状況 な ど を 
シミ ュ レ ー タ と 実機 で 検証 し , 半 透 明 合成 回 路 を 組み 込み 
まし た . 
2) 開発 ツー ル 

一 般 的 に 開発 キッ ト ( EDK) 上 で ユー ザ 回 路 を 接続 する 
場合 に は , Core Imprement Wizard と いう ツー ル を 使っ 
て 比較 的 簡単 に 実装 する こと が で きま す . し か し , 残念 な 
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ー ] 通常 は FPGA 内 部 SRAM で あり 」 
| テー タメ モリ 上 小 容量 か っ 超 高速 


L 通常 は SDRAM な どの 較 
] 大 容量 メモ リ 図 


が ら EDK 71.03 の 環境 で は PowerPC コ ア と ユー ザ 回 路 を 
つなげ る た め の FCB イ ンタ ー フ ェ ー ス を 包括 し た ウィ ザー 
ド は 提供 され て いま せん で し た . その た め , 直接 MHS フ 
ァイル に PowerPC・ ュー ザ 回 店 問 の ポー ト を 記述 し て ユ 
ー ザ 回 路 を 接続 し まし た . PBD フ ァイル を 使っ た グラ フィ 
カル な ブロ ッ ク ・ ダ イア グラ ム 表 示 ツ ー ル を 起動 する と , 
EDK 全体 が 強制 終了 し て し まい ます . 
アプ リケーション ・ ノ ー ド ' D に は , FOB 経由 で 最大 4 ワ 
ーー 人 R ま で の デー タ * みみ トド アセ と データ ・ ロー ド を サポ ー ト すす 
る Verilog HDL コー ド が 用 意 さ TI EDK に 
ザ ・ ラ イブ ラリ と し て 登録 する た め に は , これ と 対 に MPO 
ファ イル , PAO フ ァイル の 2 種類 を 開い て , 名 称 を 変更 し 
まず 。 


@ 半 透 明 合成 回 路 に つい て 
半 透 明 合成 回 路 FCM_ABLEND は , FCB 経由 で 送ら れ 
た 8 ワー ド 分 の デー タ か ら , 4 画素 分 の 半 透 明 合成 結果 を 
算出 し , その 結果 を CPU に 返す と いう も の で す . 
FCB_ABLEND 回 路 内 に は 三 つ の レジ スタ 空間 と , 転送 
元 画素 デー タ 保持 レジ スタ srcPIX_REG 3: 0] と 転送 先 
画素 デー タ 保持 レジ スタ dstPIX_REG 3: 0] の 2 組 の 4 ワ 
ー ド ・ レ ジス タ が あり ます . FCM 空間 2 が アク セス され た 
こと を 認識 する と , 4 ワー ド 分 の 転送 元 画 素 デ ー タ を 転送 
元 画素 デー タ 保持 レジ スタ に 保持 し ます . FCM 空間 3 が ア 
クセ ス さ れ た 場合 に は , 転送 先 画素 デー タ が 送り 込ま れる 
こと に な り , 先 に 保持 し た 転送 元 画素 デー タ と まさ に いま 
送り 込ま れる 転送 先 画素 デー タ の 二 つ の 画素 か ら 半 透 明 合 
成 処 理 を 行っ て 転送 先 画素 デー タ ・ レ ジス タ に 順番 に 保持 
し ます . 最後 に FCM 空間 4 が アク セス され る と , 転 送 先 
画素 デー タ ・ レ ジス タ 内 部 に 保持 され た , 半 透 明 合成 処理 


ーー 


32 ビ ッ ト 4 ワー ド ・ シ フト ・ レ ジス タ 図 


画素 抽出 較 


FCB 入 力 デー タ 図 一 一 -| 百 碗 抽出 図 


画素 抽出 較 


FCB 制 御 信号 図 


シフ ト ・ レ ジス タ 国 


シフ ト ・ レ ジス タ 国 


X 3 ユニ ッ ト 図 


FCB 出 力 デー タ 


図 8 半 透 明 合成 回 路 の ブロ ッ ク 図 
ニニ つの 画像 を ー つ の 画像 に する ミキ シン グ 回 路 で ある . 


結果 を CPU に 返し ます . 

半 透 明 合成 処理 に 使用 され る 半 透 明 の 度合 og 値 と 呼 
ぶ ) は , 転送 元 画素 デー タ の 最上 位 バ イト に 格納 され て い 
ます . 

半 透 明 合成 回 路 の 演算 は , お も に 以下 の 2 種類 が 使用 さ 
れ ま す . 


ee ソフトウェア 向き の 公式 
dstPIXX R/G/B] =srcPIX cg]・( srcPIX R/G/B] 
ー dstPIX R/G/B] ) 十 dstPIXL R/G/B] 
dstPIX gl =srcPIX og] 
@ ハー ドウ ェ ア 向 き の 公式 
dstPIX R/G/B] ズ 1- srcPIX gl) 
・ srcPIX R/G/B] 
十 srcPIX og]・ dstPIX R/G/B] 
dstPIX gl =srcPIX oe] 


ソフ トウ ェ ア 向 き の ほ う は , 掛け 算 を 1 回 し か 使用 し て 
いま せん . 一 般 に , 組み 込み CPU で は 加算 / 減 算 に 比べ て 
乗算 は 遅い た めで す . これ に 対し て ハー ド ウェ ア 向 き の 公 
式 は , 2 回 の 掛け 算 を 使用 に し てい ます . これ は FPGA の ア 


ー キ テク チャ に 合致 し て いる か ら で す . 最近 の FPGA は , 
乗算 問 また は DSP ブ ロッ ク ) を 搭載 する た め , 乗算 を 含 
お 演算 と も 相性 が よく な っ て いま す . 

半 透 明 合成 は , まず 内 部 の ステ ー ト ・ マ シン の 指示 に よ 
り 32 ビ ッ ト の 転送 元 / 転 送 先 画 素 デ ー タ か ら o 値 と R/G/B 
の 8 ビッ ト 単位 の 要素 を 切り 出し , 積 和 演 算 器 に 送り 込ま 
れ て か ら 結果 を 転送 先 画素 デー タ 保持 レジ スタ に 書き 込み 
ます . この と き , 半 透 明 合 成 で 使用 し た o 値 は 転送 先 画素 
の 新しい w 値 と し て いっ し ょ に レジ スタ に 書き 込ま れ ま す . 
保持 レジ スタ 内 の デー タ は CPU か ら ス ト ア 命 令 に よっ て 
CPU に 送り 込ま れ ま す . 


代 @ ソフ トウ ェ ア の 実装 に つい て 

CPU か ら の 送り 出し は 8 ワー ド , 読み 出し は 4 ワー ド と 
な る の で , 4 ワー ド ・ ロ ー ド 命 釜 1gqfcmx), な ら び に 4 ワ 
ー ド ・ ス ト ア 命 仙 stdfcmx) を 使用 し ます . と も に , 
FCM に 接続 され た ユー ザ 回 路 に 対し て 4 ワー ド 単位 で アド 
レス 空間 を 指定 で きる の で , FCM フ ィ ー ル ド に 書き 込み / 
読み 出し 先 の 空間 を 指定 し て いま す . 

先 に も 書い た こと で す が , FCM_ABLEND 回 路 を 操作 
する APU 命令 は か な ら ず 4 ワー ド の ロー ド / ス ト アア 命令 で 
な けれ ば な り ま せん . バイ ト , ハー フ ・ ワ ー ド , ワー ド と 
ダブ ル ・ ワ ー ド の デー タ ・ サイ ズ で 転送 を 行う と 正常 に 動 
作 し な い 仕様 と な っ て いま す . 

半 透 明 合 成す べき 画像 の 大 き さ は , 640X 480 画 素 VGA) 
で す . この サイ ズ の 絵 が 転送 元 と 転送 先 で 二 つ あ り , 全 画 
男 の 半 透 明 処 理 を 行う た め の ソ フト ウェア を 作る こと に な 
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リス ト 2 半 透 明 処理 プロ グラ ム 


#inc1ude " xbasio types.h" 
#inc1ude “xcache 1.h" 
#inc1ude “ xparameEers .h" 
#1no1ude “xpgseudo_asm.h" 
#inc1ude “ xuti1.h' 


//#inc1ude “ APUingt.h" 
/ / Data gtruotureg 


Yo1at11e Xint32 aribute  ((a1igned (32) ) ) 
Src2[640*480] : 
( (a11gned (32) ) ) 


dst2[640*480] : 


Yo1at11e Xint32 aribute 


in main( ゞ o1d) 
( 
Xint32 xx, : 
メ 1n 七 32 8 エ Co_D エ , dg Dr, gro oFFse, ds ofFfFsge : 
双 1nt32 groPTX, dgsPBTX : 
Xin32 sroA, groR, SrCG, 8roB : 
Xint32 dstR, dstG, dstB : 
1nt32 regA, resR, re8G, resB : 


// initia1ize oaoheg 
Cache Enab1eDCache (0x80000001) : 
Cache Enab1eTCache (0x80000001) : 


// initia1ize APU 
// mtmsr(XREG MSR APU AVATLABLE) : 
// コ プ ロ セッ サ 命 令 の 有効 化 


// 転送 元 YRAM ア ドレ ス を 指定 
// 転送 先 YRAM ア ドレ ス を 指定 


SrC ofFfgse 上 
ds offgse 


x04000000 : 
x04800000 : 


= 0 
= 0 


for ( y=0: ys480: y++) { 
BTC_DE エ = Y*640 + gro _oEFse : 


( a) 汎用 的 な C 


りあ 

リス ト 2 に , VQGA サイ ズ 全 画面 半 透 明 処 理 の ソー ス ・ コ 
ー ド を 示し ます . 2 画面 分 の 映像 は 4 画素 ご と に APU 映 像 
処理 エン ジン に 送ら れ ま すか ら , 640X 480 の 1/4 回 を 1 画 
面 と し て , これ の 3 回 分 を デー タ 入出 力 す る こと に な り ま 
す . ソフ トウ ェ ア の ほう は 1 画素 ご と に 処理 する の で , 
640X 480X 3 回 分 の 処理 を 行い ます . 


人 @ 性 能 の 評価 
設計 結果 か ら 性 能 を 比較 し て み ま し た . 
e CPU 命令 の み : 64 画 素 処理 当たり 3488 ク ロッ ク 
e CPU 命令 F APU 命 令 : 64 画 素 処理 当たり 456 ク ロッ ク 
CPU 命令 + APU 命 令 に よる 処理 の ほう が 756 倍 ほど 早 
いこ と が わか り ま し た . いずれ も 命令 / デ ー タ ・ キ ャ ッ シ 
ュ を 有効 に し て お り , すべ て の デー タ は SDRAM 上 に 格納 
され て いる の で , 命令 フェ ッ チ の 条件 は 同じ で す . APU 命 
令 を 使う と , まず 4 ワー ド ご と に デー タ ・ キ ャ ッシュ の 内 
容 を 自動 的 に 送り 出し て くれ る こと , FCM_ABLEND 回 
路側 に は RGB ご と に 乗算 器 を 用意 し て いる の で ソフ トウ ェ 
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dg D エ = Y*640 + dst offFse : 


For ( x=0: x<640: x++) { 
SrCPTX = SrC2[SrC_D エ + ] : 
dstPTX = dst2[sro_ ptr + x] : 
0xFF000000 
0x00FF0000 
0x0000FF00 
0x000000FEF 


SrCA 
SrCR 
FCG 
FCB 


8BFCPTXX 
8FCPT 文 
BTCPTXX 
BTCPTXX 


に 3 
3 
に 3 
を 


dstR 
dstG 
dstB 


dstPTX g 0x00FF0000 
dstPTX g 0x0000FEF00 
dstPTX g Ox000000FEF 


re8A 
regR 


SFCA : 
( ( ( 257-srcA ) * groR ) + 

( ( srcA+1 ) * dstR ) ) / 256 : 
( ( ( 257-grcA ) * grcG ) + 

( ( grcA+1 ) * dgtG ) ) / 256 : 
ェ reg ( ( ( 257-gsrcA ) * groB ) + 
( ( srcA+1 ) * dstB ) ) / 256 : 


re8G 


dst2[sro ptr + x] = ( ( resA << 24 ) | 
( resR << 16 ) | 
( resG << 8 ) | 


regB 


return 0: 


ア で は 必要 な ビッ ト ・ シ フト が まっ た く 必 要 な いこ と , で 
き 上 が っ た デー タ を 組み 立て る 処理 も ハー ド ウェア で 1 ク 
ロッ ク で 行え る こと , な どか ら , ソフ トウ ェ ア よ り も 高速 
に 処理 で きま す . CPU の 挙動 を 観察 する と , APU 命 令 の 
ほう は デー タ ・ アク セス を 一 気 に 行っ て 4 画素 単位 で 処理 
し て いる の で す が , CPU 命令 だ け だ と 1 画素 デー タ ご と の 
処理 を 行っ て いる こと が わか り ま す . 

内 部 の キャ ッシュ ・ メ モリ は 256 ビ ッ ト 幅 な の で , 8 画 
素 デ ー タ 分 を た め て お く こ と が で きま す . する と , 連続 し 
た 2 回 目 の 4 ワ ー ド ・ ロ ー ド 命令 は デー タ ・ メ モリ を アク 
セス し て いま せん か ら , さら に 高速 に デー タ を 送る こと が 
で きま す . 

な 7 だ じじ ら SNS NNW 02 ご 


2 
DSP ブ ロッ ク を 消費 し て いま す . 

また , この 機能 は ソフ トウ ェ ア な ら 和 和 は し 
まう も の な の で す が , FCM_ABLEND 回 路 の 設計 に 


// 現時 点 で は ApU 命 令 の 後 は 転送 量 十 1 


#1ino1ude 
#1ino1ude 
#1ino1ude 
#1ino1ude 
#1ino1ude 


#1ino1ude 


xbasio types.h" 
xcaohe 1.h" 
xparameEers .h" 
xpseudo_asm.h" 
xuti1.h" 


“APUinst .h" 


回 の Nop が 必須 で ある 


1wfocmaxx (2, SrC2, SC_ DPt と) : 
// CPU- >UserHW : Load sing1e x32 data . 

_NOP 1 : 

_NOP 1 』 


( gource PTXET」 ) 


// 2 回 の Nop を 明示 的 に 指示 
*/ 


/* 
1QdfFocmaxx (2, SroC2, SrC_ DPt と) : 


Load doub1e x32 data . 


/ / Data structureg 

Yo1ati1e Xint32 artbute  ((a1igned (32) ) ) 
Sroc2[640*480] : 
(32) ) ) 


dst2[640*480] : 


Yo1ati1e Xint32 aribute ((a1igned 


matn (Vo1d) 


// CPU- >UserHW : 
_NOP 1 
_NOP 1 
_NOP 1 


1qfocmx (2, 


// CPU- >UserHW : 
_NOP 1 


( gouroce PTXE1T 
7 
7 


7 // 3 


の Nop を 明示 的 に 指示 


8rC2 , BTC_Dt エ ) : 


Load quad x32 data. ( souroce PTXETL」 ) 


Xint32 
Xint32 
Xint32 


し か 
STC_ Ptr, Qs ptr : 
SrCPTX, dgEPTX : 


_NOP 1 
_NOP 1 
_NOP 1 


Xint32 
Xint32 
X1nt32 regA, 


SCA , STCR , SrCG, SrCB : 
dstR, dstG, dstB : 
reSR , re8G, regB : 


// initia1ize oaoheg 
XCache Enab1eTCache (0x80000001) 
// Tnstruotion oache enab1e 
XCache Enab1eDCache (0x80000001) 
// Data cache enab1e 


// initia1ize APU 
mtmsr (XREG MSR APU AVATLABTE) , 


// コ プ ロ セッ サ 命 令 の 有効 化 


// 転送 元 VRAM アド レス を 指定 
// 転送 先 VRAM アド レス を 指定 


Sro_ offse 
dst offgse 上 


0x04000000 : 
0x04800000 : 
for ( y=0: ys<480: y++) { 

SC_D キ エ = Y*640 + gro ofFFse : 
dst pr = *640 + ds offset : 
For メ ++) { 


( x=0: <32: 


// Non operation 


_NOP 1 


SFC_PD 上 エ 


// 5 回 の Nop を 明示 的 に 指示 


= SrC Ptr + 16 : 
// x32 x 4word poinEer ino1]ement . 


1qfcmxx (3 , dgt2, dg Pt と ) : 


Stqfomx 


dg 上 pt 上 エ 


) 


return 0: 


/ /CPU- >UserHW : Load quad x32 data. 
( destination PTXET」 ) 


(4 , dst2, dst Pt と ) : 
// UserHW- >CPU : SEore quad x32 data. 
(distination PTXETL」 ) 


= dst ptr + 16 』 
// x32 x 4word poinEer ino]ement . 


#deFine 


_NOP 1 


// Load operation 


#deFine 
#deFine 
#deFine 
#deFine 
#deFine 


1bfcmx (rn 
1hfocmx (rn, 
1wfFocmx (rn, 
1qdfocmx (rn, 
1qfFcmx (rn, 


, base, 


base , 
Dase , 
Dase , 
base , 


_ volati1e (\“ 


_ volati1e (\“ 
_ volati1e (\“ 
_ volati1e (\“ 
_ volati1e (\“ 
_ volati1e (\“ 


noDp 


1bfEomx 
1hfomx 
1wfEomx 
1qdfEomx 
1qfocmx 


(base) , 
(base) , 
(base) , 
(base) , 
(base) , 


(adr) \) 
(adr) \) 
(adr) \) 
(adr) \) 
(adr) \) 


ゲ / Store operation 


#deFine 
#defFine 
#deFine 
#deFine 
#deFine 


gtbfomx (rn, 
8thfomx (rn, 
8twfFomx ( エ n, 
8tdfFomx ( エ n, 
Stgfomx ( エ n, 


base , 
base , 
base , 
Dase , 
base , 


_ volati1e  (\“ 
_ volati1e (\“ 
_ volati1e  (\“ 


_ volati1e (\“ 
_ volati1e  (\“ 


gtbfEcmx 
gthfEcmx 
gtwEocmx 


(base) , 
(base) , 


gtdfEocmx 
gtqfFomx 


(base) , 


エ 
エ 
(base) , エ 
エ 
(base) , エ 


(c) APU 命 令 を 使う た め の ヘ ッ ダ 


よそ 3 日 ほど か か り ま し た . 多く の 時 間 を 要 し た の は FCB 
イン ター フェ ー ス 回 路 の 設計 で す . 


@ APU 命令 を 使っ つて みて 


APU 命 令 は あく まで も , メモ リ 間 の デー タ 入出 力 を ド ラ 
イ バ や OS の 介在 な し に 行え る も の で す . 


For (1 三 0:1<4 1++) ( 


^p 上 エ ++ = Ox12345678 : 


ad) \) 
adr) \) 
ad と ) \) 
adr) \) 
(adr) \) 


( 
( 
( 
( 


例え ば , 


今回 いろ いろ と デー タ の サイ ズ を 変え る な ど し て 評価 し 
まし た が , APU 命 令 を 適切 に 使わ な いと , 逆 に アプ リ ケ 
ーション に は 合わ な いも の も 出 て くる と 思い まし た . 


と する こと は で きま せん . Ox12345678 は あら か じ め ど こ か 
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の メモ リ 領 域 initial_value 配 列 ) に 格納 し て お き , 
1qgfcmx( 0, *init1a] value, 0 ): 


と し て メモ リ 間 転 送 に する 必要 が あり ます . PowerPC の 
CPU 命令 で 行う と , 以下 の よう な コー ド に な り ま す . 


for(1 三 01<4:1++) 【 
*D 上 エ ++ = ま 1m1 ヒ 1a] Value++ : 


) 


ちな み に こ の コー ド で は , 1 デー タ を 転送 する だ け で 6 ク 
ロッ ク か か り ま ず デー タ ・ フ ェ ッ チ の オー バス ヘッド は 含 
まな い ). これ は ポイ ンタ の イン デック ス 加 算 と デー タ ・ 
セッ ト , for に よる 範囲 チェ ッ ク が 入る か ら で あ り , 合計 
24 ク ロッ ク か か り ま す . この 結果 , も し メモ リ 間 転送 を 行 
う の で あれ ば , 1 クロ ッ ク で 動作 する 1qFcmx を 使っ た ほ 
うか が 効率 的 で ある こと が わか り ま す . 

APU 命令 が 本 領 を 発揮 する の は , 4 ワー ド = 128 ビ ッ ト 
ご と に 気 に デー タダ の 入出 力 を 行う こと 、 アド レス イシ 
デック ス 機 能 付 き 命令 を 使っ て , 自動 的 に ポイ ンタ を 移動 
で きる る と デー タバ メス 垂 県 チー タッ セ ツン ショ) POB 
イン ター フェ ー ス の 間 で デー タ 転送 を 行え る 場合 で ある こ 
と を 頭 の 片隅 に 入れ て お く 必要 が あり ます . APU 命 令 は 
ある まとまっ た サイ ズ の デー タ の 塊 を ハー ド ウェ ア に 受け 
渡し て 結果 を 得る よう な 場合 に は 非常 に 有利 に 働き ます . 


ーーーー- 一 一 
ーーー- ーーー ーー ーー 一 ーーー 一 


4. まとめ = ニー ニニ ーーーーー ニ ニニ ーー ニー 


今回 の 例 で は , 首尾 よく 756 倍 程度 の 加速 性 能 を 得る こ 

と が で きま し た . 当初 , 筆者 も この 程度 は 出る だ ろう と 思 
っ て いた の で , ひと 安心 で す . 半 透 明 合成 処理 は , 例題 と 
し て は 非常 に 簡単 な も の で す が , デー タ の 飽和 検出 機能 付 
き の 乗 算 合成 と 半 透 明 合成 を ソフ トウ ェ ア で 切り 替え て 使 
うな ど , 処理 が 重たく な る と この 差 は 開き ます . 10 僅 ぐら 
い の 差 が 出る の で は な いか と 予想 し て いま す . 
生 意 す る べき 点 は , これ ら の 性 能 を 得る ため に は ハー ド 
ウェ ア も きち ん と 設計 され て いる 必要 が あり , ある 程度 ま 
と まっ た 量 の デー タ を 受け 渡さ な いと , デー タ の 受け 渡し 
だ け で 時 間 を 消費 し て し まう こと で す . 

ソフ トウ ェ ア の 性 能 を 1 と し て , ハー ド ウェ ア の 性 能 が 
100 に な る の な ら , 当然 ハー ドウ ェ ア の ほう が いい は ず で 
す . し か し , 開発 期間 や コス ト も 考え な けれ ば な り ま せん . 


に マク 
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すべ て の アプ リケーション で 100 の 性 能 を 要求 され る わけ 
で は あり ませ ん . APU 命 令 + ハー ドウ ェ ア と いう コ プ ロ セ 
ッ サ 機能 は , 性 能 や コス ト の 最適 点 を 得 ら れる 点 で メリ ッ 
ト が ある と いえ ます . 

APU 命令 の 詳細 は まだ 非 公開 の 部 分 も 多く , 使い こなす 
た め に は あと 半年 程度 は か か る と 思い ます . 現在 , 筆者 の 
会 社 を はじめ と する 数 社 で , FPGA-CPU ワ ー キ ング ・ グ 
ルー プ を 立ち 上 げ ま し た . そこ で , MPEG2 や JPEG2000 
を 例 に , APU 命 令 の 使用 事例 も 含め た 勉強 会 を 開い て お 
り , 知識 デー タベース の 鞭 積 を 行っ て いま す 
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井倉 将 実 . 本 稿 執筆 中 に タイ の タオ 島 で 念願 の ダイ ビン グ 人 免許 を 取得 
し まし た . 機材 の 使い か た も 専門 用 語 も わか ら ず ヨチヨチ 歩き 状態 で 
す が , Verilog HDL 言語 習得 と 同じ よう に 着実 に 身 に つけ て いこ うと 
思っ て いま す . 


